Aprenentatge multimodal

L'aprenentatge multimodal intenta modelar la combinació de diferents modalitats de dades, que sovint sorgeixen en aplicacions del món real. Un exemple de dades multimodals són les dades que combinen text (normalment representat com a vectors de recompte de paraules discrets) amb dades d'imatge que consisteixen en intensitats de píxels i etiquetes d'anotació. Com que aquestes modalitats tenen propietats estadístiques fonamentalment diferents, la seva combinació no és trivial, per això calen estratègies i algorismes de modelització especialitzats.^[1]

S'han implementat molts models i algorismes per recuperar i classificar un determinat tipus de dades, per exemple, imatge o text (on els humans que interactuen amb les màquines poden extreure imatges en forma d'imatges i text que podria ser qualsevol missatge, etc.). Tanmateix, les dades solen venir amb diferents modalitats (és el grau en què els components d'un sistema es poden separar o combinar) que porten informació diferent. Per exemple, és molt comú subtitular una imatge per transmetre la informació que no es presenta a la pròpia imatge. De la mateixa manera, de vegades és més senzill utilitzar una imatge per descriure la informació que pot no ser òbvia dels textos. Com a resultat, si apareixen paraules diferents en imatges similars, és probable que aquestes paraules descriguin el mateix. Per contra, si s'utilitza una paraula per descriure imatges aparentment diferents, aquestes imatges poden representar el mateix objecte. Així, en els casos que tracten dades multimodals, és important utilitzar un model que sigui capaç de representar conjuntament la informació de manera que el model pugui captar l'estructura de correlació entre diferents modalitats. A més, també hauria de ser capaç de recuperar les modalitats que falten donades les observades (per exemple, predir un possible objecte d'imatge segons la descripció del text). El model de màquina multimodal Deep Boltzmann satisfà els propòsits anteriors.^[2]

↑ Akkus, Cem; Chu, Luyang; Djakovic, Vladana; Jauch-Walser, Steffen; Koch, Philipp «Multimodal Deep Learning». arXiv:2301.04856 [cs, stat], 12-01-2023.
↑ «Multimodal Deep Learning» (en anglès). https://ai.stanford.edu.+[Consulta: 15 març 2023].

[1] Akkus, Cem; Chu, Luyang; Djakovic, Vladana; Jauch-Walser, Steffen; Koch, Philipp «Multimodal Deep Learning». arXiv:2301.04856 [cs, stat], 12-01-2023.

[2] «Multimodal Deep Learning» (en anglès). https://ai.stanford.edu.+[Consulta: 15 març 2023].

[1]

[2]